计量经济学是什么?它与统计学有何区别?简单地说,统计学使用多种方法分析数据,而计量经济学则专精于回归分析(regression analysis),以揭示变量间的因果关系。普通最小二乘法(Ordinary Least Squares,简记 OLS)则是最基本、最常用的回归方法。何时可用 OLS?在实践中,一般只要满足两个条件即可,即线性模型、无内生性。
假设(解释)变量 x 对(被解释)变量 y 的作用为线性函数,可得一元回归方程:
其中,α 与 β 为待估计的未知参数,下标 i 表示个体 i(比如,第 i 个企业),ε 为随机扰动项(stochastic disturbance,包含除 x 外影响 y 的所有其他因素),而 n 为样本容量。如果担心 x 对 y 的作用为非线性,可考虑加入 x 的平方项: 只要将 x2 也视为一个变量,则上式依然为线性模型。事实上,线性模型的本质定义为,回归方程是参数 (α, β, γ) 的线性函数(linear in parameters)。当然,也可以加入更多的解释变量(即多元回归方程):OLS的思想很简单。对于一元回归,可根据数据 (x, y) 画形如以下的散点图:
OLS的思想就是要找到一条直线,离所有的点(观测值)最近。更一般地,对于多元回归,任给一个参数估计量:可得对被解释变量 y 的预测值(fitted or predicted value): 我们希望所有的残差越小越好。但如果对残差求和则会出现正负抵消的情形;而如果考虑残差绝对值之和又不易求导数(绝对值函数有一处不可导)。为此,OLS通过选择最优的 ,以最小化残差平方和(Sum of Squared Residuals,简记 SSR):由此所得的估计量,即为 “OLS估计量”(OLS estimator)。在几何上,可参见下图:
在 Stata 中,很容易进行 OLS 估计。比如,将 y 对 x1, x2 与 x3 进行 OLS 回归,其 Stata 命令为:
regress y x1 x2 x3, robust noconstant
其中,“regress” 的下划线表示可将 “regress” 简写为 “reg”,以此类推。选择项 “robust”表示使用(异方差)稳健标准误(建议总是使用此选择项),而 “noconstant” 表示省略常数项(很少使用此选择项)。作为实例,使用Stata自带的系统数据集auto.dta,估计一个关于汽车的特征价格模型(hedonic pricing model),即假设汽车价格由其各项特征所决定(比如,每加仑英里数 mile per gallon、车重、车长等)。. sysuse auto
(1978 Automobile Data)
. reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign, r上表的估计结果汇报了OLS系数估计值、稳健标准误、t 统计量、F 统计量、p 值、置信区间、拟合优度 R2 等。何时可用OLS?OLS之所以如此流行,重要原因就是它所要求的条件非常少。对于线性模型,在实践中,一般仅要求无内生性即可。计量经济学的内生性定义很简单,即解释变量 x 与扰动项 ε 相关(相关系数或协方差不为0)。以一元回归为例:
如果存在内生性,则称解释变量 x 为 “内生变量”(endogenous variable);反之,称 x 为“外生变量”(exogenous variable)。一般来说,如果 x 外生,则 OLS为一致估计量(consistent estimator),即当样本容量 n 趋向无穷大时,OLS 估计量依概率收敛(converge in probability)至真实的参数值,参见下图:
一致估计量示意图(真实参数 = 4)
内生性的主要后果是使得 OLS 变得不一致(inconsistent),即无论样本容量多大,其偏差(bias)也不会消失。直观上,可通过以下一元回归的示意图来理解。不失一般性,假设解释变量 x 与扰动项 ε 正相关。故当 x 较小时,ε 也倾向于较小,使得观测值更多地集中于真实回归线的下方(上图左边);而当 x 较大时,ε 也倾向于较大,使得观测值更多地集中于真实回归线的上方(上图右边)。因此,样本回归线( )比真实(总体)回归线( )更为陡峭,使得 高估 。即使增大样本容量(比如,使用人口普查的海量数据),也无法消去偏差,因为新增的样本观测值也存在同样的问题,故 OLS 估计量不一致。
在哪些情况下,会导致解释变量与扰动项相关?常见的内生性来源主要包括:
但在实际估计时,由于某种原因遗漏了解释变量 z,则 z 被纳入扰动项。如果 z 与 x 相关,就会导致 OLS 不一致,其偏差称为 “遗漏变量偏差”(omitted variable bias)。需要注意的是,虽然遗漏变量(omitted variables)普遍存在(受限于数据可得性),但并不一定就意味着遗漏变量偏差。只有遗漏变量与解释变量相关,才会导致遗漏变量偏差。
如果 x 影响y,而 y 也影响 x,则存在 “逆向因果”(reverse causality),也称 “双向因果” 或 “互为因果”。此时,可写下如下的联立方程组(simultaneous equations): 此时,如果扰动项 ε 增大,则根据第一个方程,y 也会增大。而根据第二个方程,y 又会影响 x,从而导致扰动项 ε 与解释变量 x 相关,使得 OLS 不一致。由于双向因果总能写为以上联立方程组的形式,故称此偏差为 “联立方程偏差”(simultaneity bias)。
另一常见的内生性来源为解释变量的测量误差(measurement errors 或 errors in variables)。如果解释变量测量得不准确,则其测量误差也被纳入到扰动项中。可以证明,纳入扰动项中的测量误差一定会与解释变量相关,导致 OLS 不一致,称为 “测量误差偏差”(measurement error bias),参见陈强(2014,2015)。
在评估某些政策或项目的效应时,由于个体是否参加项目存在自我选择(self selection),故参加项目者(treated group)与未参加项目者(control group)可能存在系统差异,导致OLS估计不一致,其偏差称为 “选择偏差”(selection bias)。____________________________________陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。
►一周热文
数据呈现丨R语言学习笔记之热图绘制
统计计量丨再论OLS:核心变量与控制变量的区别
统计计量 | 用R做多元线性回归分析(文末有福利)
统计计量丨倾向得分匹配:psmatch2 还是 teffects psmatch
机器学习丨Why Machine Learning: 我应该学机器学习吗?
数据呈现 | 气泡图:绘制带权重的散点图
统计计量丨工具变量法(五): 为何第一阶段回归应包括所有外生解释变量
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:简华(何年华)编辑:青酱